% Options for packages loaded elsewhere
\PassOptionsToPackage{unicode}{hyperref}
\PassOptionsToPackage{hyphens}{url}
\documentclass[
]{ctexart}
\usepackage{xcolor}
\usepackage[margin=1in]{geometry}
\usepackage{amsmath,amssymb}
\setcounter{secnumdepth}{-\maxdimen} % remove section numbering
\usepackage{iftex}
\ifPDFTeX
  \usepackage[T1]{fontenc}
  \usepackage[utf8]{inputenc}
  \usepackage{textcomp} % provide euro and other symbols
\else % if luatex or xetex
  \usepackage{unicode-math} % this also loads fontspec
  \defaultfontfeatures{Scale=MatchLowercase}
  \defaultfontfeatures[\rmfamily]{Ligatures=TeX,Scale=1}
\fi
\usepackage{lmodern}
\ifPDFTeX\else
  % xetex/luatex font selection
\fi
% Use upquote if available, for straight quotes in verbatim environments
\IfFileExists{upquote.sty}{\usepackage{upquote}}{}
\IfFileExists{microtype.sty}{% use microtype if available
  \usepackage[]{microtype}
  \UseMicrotypeSet[protrusion]{basicmath} % disable protrusion for tt fonts
}{}
\makeatletter
\@ifundefined{KOMAClassName}{% if non-KOMA class
  \IfFileExists{parskip.sty}{%
    \usepackage{parskip}
  }{% else
    \setlength{\parindent}{0pt}
    \setlength{\parskip}{6pt plus 2pt minus 1pt}}
}{% if KOMA class
  \KOMAoptions{parskip=half}}
\makeatother
\setlength{\emergencystretch}{3em} % prevent overfull lines
\providecommand{\tightlist}{%
  \setlength{\itemsep}{0pt}\setlength{\parskip}{0pt}}
% Extra packages for math and URLs
\usepackage{amsmath,amssymb}
\usepackage{bbm}
\usepackage{hyperref}
\usepackage{bookmark}
\IfFileExists{xurl.sty}{\usepackage{xurl}}{} % add URL line breaks if available
\urlstyle{same}
\hypersetup{
  hidelinks,
  pdfcreator={LaTeX via pandoc}}

\author{}
\date{}

\begin{document}

\section{深入对话DeepAnalyze作者：探索数据科学智能体的技术突破与未来愿景}\label{ux6df1ux5165ux5bf9ux8bdddeepanalyzeux4f5cux8005ux63a2ux7d22ux6570ux636eux79d1ux5b66ux667aux80fdux4f53ux7684ux6280ux672fux7a81ux7834ux4e0eux672aux6765ux613fux666f}

\subsection{团队背景介绍}\label{ux56e2ux961fux80ccux666fux4ecbux7ecd}

DeepAnalyze是由中国人民大学RUC-DataLab团队与清华大学合作开发的研究成果。RUC-DataLab是中国人民大学数据科学与智能实验室，长期致力于数据库、大数据管理和人工智能研究。团队在数据库领域顶级会议（SIGMOD、VLDB、ICDE）和期刊上发表了大量高水平论文，并获得多项国家级科研项目支持。

樊举教授作为通讯作者，是教育部数据工程与知识工程重点实验室副主任，主要研究领域包括众包计算、交互式数据探索、大数据管理与分析等。李国良教授是清华大学计算机系副主任，IEEE
Fellow，在数据库系统和机器学习领域有深厚造诣。杜小勇教授是中国人民大学信息学院教授，CCF会士，长期从事数据库与智能信息检索研究。

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{访谈概述}\label{ux8bbfux8c08ux6982ux8ff0}

\textbf{受访嘉宾}: - \textbf{张少磊}（Shaolei Zhang）-
中国人民大学高瓴人工智能学院博士生，DeepAnalyze项目主要开发者 -
\textbf{樊举}（Ju Fan，通讯作者） -
中国人民大学高瓴人工智能学院教授、博士生导师，教育部数据工程与知识工程重点实验室副主任
- \textbf{范美豪}（Meihao Fan） - 中国人民大学高瓴人工智能学院博士生 -
\textbf{李国良}（Guoliang Li） -
清华大学计算机科学与技术系教授、博士生导师，IEEE Fellow，计算机系副主任
- \textbf{杜小勇}（Xiaoyong Du） -
中国人民大学信息学院教授、博士生导师，教育部数据工程与知识工程重点实验室主任，CCF会士

\textbf{研究机构}:
中国人民大学高瓴人工智能学院、清华大学计算机科学与技术系、教育部数据工程与知识工程重点实验室

\textbf{访谈主持}: {[}您的姓名/机构{]} \textbf{访谈时间}: 2025年10月25日
\textbf{访谈主题}: DeepAnalyze------首个面向数据科学的智能体大语言模型

\textbf{技术术语说明}: - \textbf{Agentic LLM（智能体大语言模型）}:
通过智能体训练（agentic training）获得自主问题解决能力的大语言模型 -
\textbf{自主编排（Autonomous Orchestration）}:
理解用户意图并系统协调一系列相互依赖的操作以完成复杂任务的能力 -
\textbf{自适应优化（Adaptive Optimization）}:
与真实世界数据环境交互并根据反馈迭代优化策略的能力 -
\textbf{GRPO（Group-wise Relative Policy Optimization）}:
群组相对策略优化，一种强化学习算法 -
\textbf{课程式训练（Curriculum-based Training）}:
模仿人类学习轨迹，从简单到复杂的渐进式训练方法

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{开场介绍}\label{ux5f00ux573aux4ecbux7ecd}

\textbf{主持}:
非常感谢各位老师今天接受我们的访谈。DeepAnalyze作为首个面向数据科学的Agentic
LLM，最近在ICML
2025发表后在学术界和工业界都引起了广泛关注。从论文中我们看到，DeepAnalyze基于DeepSeek-R1-0528-Qwen3-8B仅8B参数的模型，通过课程式智能体训练和数据驱动轨迹合成，在12个数据科学基准测试中表现优异，甚至在某些指标上超越了GPT-4o等更大规模的闭源模型。能否首先请张少磊同学为我们介绍一下，什么是DeepAnalyze？它与传统的工作流型数据科学智能体有什么本质区别？

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{核心技术理念与创新}\label{ux6838ux5fc3ux6280ux672fux7406ux5ff5ux4e0eux521bux65b0}

\subsubsection{1.
技术范式的转变}\label{ux6280ux672fux8303ux5f0fux7684ux8f6cux53d8}

\textbf{主持}:
论文中提到DeepAnalyze实现了从''工具型分析到智能体驱动分析的范式转变''。这个范式转变具体体现在哪些方面？

\textbf{问题清单}: -
DeepAnalyze是如何实现从''被动工具''到''主动智能伙伴''的角色转变的？ -
自主编排（autonomous orchestration）和自适应优化（adaptive
optimization）这两个核心能力是如何实现的？ -
与现有的基于ReAct、AutoGen等工作流的智能体相比，DeepAnalyze在架构设计上有什么根本性的不同？

\subsubsection{2.
五大核心动作设计}\label{ux4e94ux5927ux6838ux5fc3ux52a8ux4f5cux8bbeux8ba1}

\textbf{主持}:
DeepAnalyze设计了五个特殊的动作标记：Analyze、Understand、Code、Execute、Answer。这样的设计思路是怎么来的？

\textbf{问题清单}: -
为什么选择这五个动作作为数据科学智能体的核心操作？是否考虑过其他的动作组合？
-
\texttt{\textless{}Understand\textgreater{}}动作专门针对结构化数据理解，这个设计的技术挑战是什么？
-
这些特殊标记是如何集成到基础模型的词汇表中的？在推理过程中如何确保动作切换的流畅性？

\subsubsection{3.
课程式智能体训练}\label{ux8bfeux7a0bux5f0fux667aux80fdux4f53ux8badux7ec3}

\textbf{主持}: 课程式智能体训练（curriculum-based agentic
training）是DeepAnalyze的重要创新。能否详细介绍一下这个训练范式？

\textbf{问题清单}: -
课程式训练的两个阶段（单能力微调+多能力智能体训练）是如何设计的？ -
为什么要模仿人类数据科学家的学习轨迹？这种仿生学思路的灵感来源是什么？ -
在解决奖励稀疏性（reward sparsity）和轨迹稀缺性（trajectory
scarcity）方面，课程式训练有什么独特优势？

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{技术实现细节}\label{ux6280ux672fux5b9eux73b0ux7ec6ux8282}

\subsubsection{4.
数据驱动的轨迹合成}\label{ux6570ux636eux9a71ux52a8ux7684ux8f68ux8ff9ux5408ux6210}

\textbf{主持}:
数据驱动的轨迹合成框架很有意思，特别是推理轨迹合成和交互轨迹合成两部分。论文中提到这个框架包含了推理轨迹合成（Reasoning
Trajectory Synthesis）和交互轨迹合成（Interaction Trajectory
Synthesis）两个核心组件。

\textbf{问题清单}: - 推理轨迹合成中的``蒸馏 +
精炼''过程具体是如何操作的？能否结合关键字插入策略（比如 Appendix
中给出的示例）解释在 \texttt{\textless{}Analyze\textgreater{}} 与
\texttt{\textless{}Understand\textgreater{}}
段落中分别如何强化对结构化数据的聚焦？ -
在交互轨迹合成时，提问者、解决者、检查者三方协同需要遵循怎样的 checklist
约束？这个 checklist
如何确保环境变更（文件写入、工具调用）与对话内容一致？ -
合成过程中如何对轨迹质量进行自动化筛查？是否结合了成功率、动作覆盖度、代码执行结果等信号，或者还需要人工
spot check？

\subsubsection{5.
混合奖励建模}\label{ux6df7ux5408ux5956ux52b1ux5efaux6a21}

\textbf{主持}:
针对开放式数据研究任务，DeepAnalyze采用了混合奖励建模。这个设计很有前瞻性。

\textbf{问题清单}: - 论文中给出的开放式研究奖励
\(R=\frac{1}{3}\left(S_{\text{report}}(o)+\min(|T|/N^{T},1)+\frac{1}{|T|}\sum_{T_i}\mathbbm{1}_{\text{success}}(T_i)\right)\)
如何在工程中具体落地？\(N^{T}=10\) 这一阈值是如何调优得到的？ -
\(S_{\text{report}}(o)\)
涵盖有用性、丰富性、合理性、可解释性、可读性五个维度。是通过
LLM-as-a-judge、人工标注，还是混合评估生成的？不同维度之间是否设置了权重或层级？
- 对于有参考答案的数据任务，奖励
\(R=\frac{1}{2}(\mathbbm{1}_{\text{acc}}+S_{\text{interaction}})\) 中的
\(S_{\text{interaction}}\)
具体考察哪些指标（如动作格式、代码执行、环境变更）？与``格式错误即
\(R=-1\)'' 的硬约束怎样结合？ - RL 阶段选择了哪种评审模型执行
LLM-as-a-judge？是否配置了交叉评审、人工抽样或置信度校准来抑制奖励噪声？
- 在 GRPO 训练中如何设置采样温度、Top-p
等超参数以兼顾探索与高质量报告？观察到的典型 failure
mode（例如冗长无效的 \texttt{\textless{}Analyze\textgreater{}}、过早
\texttt{\textless{}Answer\textgreater{}}）如何被缓解？

\subsubsection{6.
模型架构与工程实现}\label{ux6a21ux578bux67b6ux6784ux4e0eux5de5ux7a0bux5b9eux73b0}

\textbf{主持}:
DeepAnalyze-8B基于DeepSeek-R1-0528-Qwen3-8B构建，通过ms-swift和SkyRL训练框架进行训练，并使用vLLM引擎进行推理部署，但实现了超越更大参数规模模型的性能。

\textbf{问题清单}: -
在8B参数规模下实现如此强大的性能，关键技术突破是什么？ -
vLLM引擎的集成为DeepAnalyze带来了多大的性能提升？ -
在处理长序列（32K上下文）时，如何保证推理效率和内存管理的平衡？ -
课程式训练的两个阶段分别依托 \texttt{scripts/single.sh} 与
\texttt{scripts/multi\_coldstart.sh}，其中批大小、Accumulate
Steps、bfloat16、8K/32K
序列长度等设置是如何权衡的？是否遇到梯度稳定性或显存瓶颈？ - 在 SkyRL
GRPO 阶段（\texttt{scripts/multi\_rl.sh}）采用本地 vLLM 做 5 路并行
roll-out。这个设计在 A800 集群上的带宽、通信和容错如何保障？为何选择 0.5
的 \texttt{gpu\_memory\_utilization}？ - 多阶段训练如何管理模型的
checkpoint？如果 RL
阶段出现性能退化，是否支持回滚到单能力模型并重新启动？这与
\texttt{deepanalyze/add\_vocab.py} 的加词流程如何衔接？

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{评估与性能分析}\label{ux8bc4ux4f30ux4e0eux6027ux80fdux5206ux6790}

\subsubsection{7.
基准测试的全面胜利}\label{ux57faux51c6ux6d4bux8bd5ux7684ux5168ux9762ux80dcux5229}

\textbf{主持}:
DeepAnalyze在12个数据科学基准测试中表现优异，包括DataSciBench、DSBench、DABStep、DS-1000以及多个TableQA基准，甚至在某些指标上超越了GPT-4o等闭源模型。

\textbf{问题清单}: -
在DataSciBench这样的端到端数据科学流水线评估中，DeepAnalyze的哪些能力起到了关键作用？
-
DABStep-Research这个新基准的构建标准是什么？如何确保评估的客观性和全面性？
-
与基于工具调用的智能体系统相比，DeepAnalyze在开放式数据研究任务上的优势体现在哪里？

\subsubsection{8.
消融实验的关键发现}\label{ux6d88ux878dux5b9eux9a8cux7684ux5173ux952eux53d1ux73b0}

\textbf{主持}:
消融实验揭示了几个有趣的技术选择，比如\texttt{\textless{}Understand\textgreater{}}动作的重要性。

\textbf{问题清单}: -
移除\texttt{\textless{}Understand\textgreater{}}动作后，模型在结构化数据理解任务上性能明显下降。这个发现对未来的数据科学智能体设计有什么启示？
- 课程式训练相比传统的单阶段训练有什么优势？从实验数据中我们学到了什么？
- 推理轨迹合成中，精炼阶段相比单纯的蒸馏能带来多大的性能提升？

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{开源与生态建设}\label{ux5f00ux6e90ux4e0eux751fux6001ux5efaux8bbe}

\subsubsection{9.
DataScience-Instruct-500K数据集}\label{datascience-instruct-500kux6570ux636eux96c6}

\textbf{主持}:
50万条数据科学指令数据的开源是一个重要贡献，这在当前的大模型时代非常难得。

\textbf{问题清单}: -
数据集的构建过程中遇到了哪些挑战？如何保证数据的质量和多样性？ -
为什么选择完全开源这个数据集？这对数据科学智能体研究领域有什么意义？ -
数据集涵盖了多个专业数据集，包括Reasoning-Table、Spider、BIRD等，选择这些数据集的标准是什么？

\subsubsection{10.
代码与模型的完全开源}\label{ux4ee3ux7801ux4e0eux6a21ux578bux7684ux5b8cux5168ux5f00ux6e90}

\textbf{主持}:
DeepAnalyze实现了模型、代码、训练数据的完全开源，包括在Hugging
Face上发布的DeepAnalyze-8B模型、GitHub上的完整代码库以及DataScience-Instruct-500K数据集。

\textbf{问题清单}: -
在决定完全开源时，团队是如何考虑的？开源策略的制定过程是怎样的？ -
开源后收到了哪些社区的反馈？有没有让你印象深刻的二次开发案例？ -
对于想要基于DeepAnalyze进行二次开发的研究者，有什么建议和指导？

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{应用场景与未来展望}\label{ux5e94ux7528ux573aux666fux4e0eux672aux6765ux5c55ux671b}

\subsubsection{11.
实际应用场景}\label{ux5b9eux9645ux5e94ux7528ux573aux666f}

\textbf{主持}: DeepAnalyze在实际业务场景中有哪些应用前景？

\textbf{问题清单}: -
在金融、医疗、教育等具体行业，DeepAnalyze可以解决哪些传统方法难以处理的问题？
- 对于非技术背景的业务用户，如何降低DeepAnalyze的使用门槛？ -
在企业级部署中，数据安全和隐私保护是如何考虑的？

\subsubsection{12.
技术发展方向}\label{ux6280ux672fux53d1ux5c55ux65b9ux5411}

\textbf{主持}: 数据科学智能体这个领域未来会如何发展？

\textbf{问题清单}: -
多模态数据科学智能体（如图像、音频、视频数据）是未来的发展方向吗？ -
如何进一步提升智能体的可解释性和可信度？ -
与人类数据科学专家的协作模式会是怎样的？智能体会完全取代人类还是作为辅助工具？

\subsubsection{13.
学术与产业影响}\label{ux5b66ux672fux4e0eux4ea7ux4e1aux5f71ux54cd}

\textbf{主持}: DeepAnalyze的成功对数据科学教育和人才培养有什么启示？

\textbf{问题清单}: - 未来的数据科学家需要具备哪些新的技能？ -
高校的数据科学教育应该如何调整以适应智能体时代的到来？ -
对于想要进入这个领域的学生和研究者，有什么学习路径建议？

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{技术挑战与解决方案}\label{ux6280ux672fux6311ux6218ux4e0eux89e3ux51b3ux65b9ux6848}

\subsubsection{14.
当前限制与改进方向}\label{ux5f53ux524dux9650ux5236ux4e0eux6539ux8fdbux65b9ux5411}

\textbf{主持}:
作为第一个面向数据科学的智能体模型，DeepAnalyze还存在哪些技术限制？

\textbf{问题清单}: -
在处理超大规模数据集时，性能瓶颈在哪里？如何进一步优化？ -
模型的幻觉问题在数据科学场景下有什么特殊表现？如何缓解？ -
复杂业务逻辑的理解和执行还存在哪些挑战？

\subsubsection{15.
安全性与可靠性}\label{ux5b89ux5168ux6027ux4e0eux53efux9760ux6027}

\textbf{主持}: 在自动化数据科学分析中，如何确保结果的可靠性和安全性？

\textbf{问题清单}: - \texttt{deepanalyze.py} 中
\texttt{\textless{}Code\textgreater{}} /
\texttt{\textless{}Execute\textgreater{}} 循环会即时运行 Python
代码。团队如何通过工作区隔离、\texttt{execute\_code\_safe} 的超时 /
资源限制来约束潜在的恶意或资源消耗型代码？ - Demo 后端
(\texttt{demo/backend.py}) 会启动本地 HTTP
文件服务并缓存上传数据。面向企业场景时，如何加强鉴权、访问控制、审计日志以避免敏感数据泄露？
-
在生成分析报告的同时，会保留哪些可追踪的中间产物（脚本、可视化、执行日志）供事后复核？这些产物与奖励函数中的
\texttt{S\_\{\textbackslash{}text\{interaction\}\}}、\texttt{\textbackslash{}mathbbm\{1\}\_\{\textbackslash{}text\{success\}\}}
是否建立了直接映射？ -
针对模型幻觉或错误结论，是否有自动化的二次验证（例如静态分析、单元测试、基线对比）或人工复审机制？未来是否考虑引入更严格的合规审计流程？

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{个人经历与团队故事}\label{ux4e2aux4ebaux7ecfux5386ux4e0eux56e2ux961fux6545ux4e8b}

\subsubsection{16. 研究历程}\label{ux7814ux7a76ux5386ux7a0b}

\textbf{主持}:
能否分享一下DeepAnalyze项目的研发历程？有没有什么印象深刻的故事？

\textbf{问题清单}: - 项目最初的想法是怎么产生的？经历了怎样的迭代过程？
- 在研发过程中遇到的最大技术挑战是什么？是如何克服的？ -
团队合作中有什么值得分享的经验？不同背景的研究者是如何协作的？

\subsubsection{17. 个人感悟}\label{ux4e2aux4ebaux611fux609f}

\textbf{主持}: 各位老师在DeepAnalyze的研发过程中有什么个人成长和感悟？

\textbf{问题清单}: - 从这个项目中获得的最大收获是什么？ -
对年轻的研究者有什么建议？ - 未来的研究计划是什么？

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{结语}\label{ux7ed3ux8bed}

\textbf{主持}:
非常感谢各位老师今天分享了这么多宝贵的技术细节和深度思考。DeepAnalyze的出现确实标志着数据科学进入了一个新的时代。最后，请问还有什么想对读者说的吗？

\textbf{总结}:
DeepAnalyze不仅仅是一个技术工具，更是数据科学领域的一次思想革命。它让我们看到了人工智能从''工具''向''伙伴''转变的可能性，也为未来的数据科学研究指明了方向。作为首个面向数据科学的智能体大语言模型，DeepAnalyze为推动数据科学从工具型分析向智能体驱动分析的范式转变做出了重要贡献。

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{访谈后记}\label{ux8bbfux8c08ux540eux8bb0}

通过这次深度访谈，我们不仅了解了DeepAnalyze的技术创新，更重要的是看到了一群有理想、有担当的研究者如何通过自己的努力推动整个领域的发展。DeepAnalyze的实践表明，从依赖外部编排的工作流转向可训练的智能体模型正在重塑数据科学的生产方式------无论是数据发现、治理还是行业落地，都开始出现全新的范式。我们期待更多基于DeepAnalyze的应用与复现，也希望这一开放生态在协作与共享中持续壮大，为下一代智能数据系统打下坚实基础。

\begin{center}\rule{0.5\linewidth}{0.5pt}\end{center}

\subsection{相关资源}\label{ux76f8ux5173ux8d44ux6e90}

\textbf{论文信息}: - 标题: DeepAnalyze: Agentic Large Language Models
for Autonomous Data Science - 发表会议: ICML 2025 - arXiv预印本:
https://arxiv.org/abs/2510.16872

\textbf{开源资源}: - 项目主页: https://ruc-deepanalyze.github.io/ -
GitHub代码库: https://github.com/ruc-datalab/DeepAnalyze - Hugging
Face模型: https://huggingface.co/RUC-DataLab/DeepAnalyze-8B -
训练数据集:
https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K

\textbf{研究团队背景}: -
RUC-DataLab是中国人民大学数据科学与智能实验室，长期致力于数据库、大数据管理和人工智能研究
- 团队在数据库、数据挖掘、人工智能等领域顶级会议和期刊发表多篇论文 -
研究得到国家自然科学基金、科技部重点研发计划等项目支持

\end{document}
